برچسب گذاری نیمه خودکار مجموعه ی آموزش در دسته بندی متن

پایان نامه
چکیده

وب شامل کتابخانه های دیجیتال و بیلیون ها سند متنی است. جستجوی آسان و سریع در این مجموعه ی بزرگ برای کاربران و محققان پراهمیت است. دستیابی به این هدف نیازمند سازمان دهی اسناد می باشد. با توجه به این-که دسته بندی اسناد با دست یا قوانین کاری سخت و پرزحمت است، نیاز به سیستم های دسته بندی خودکار به شدت احساس می شود. سیستم های خودکار دسته بندی متون نیازمند مجموعه ی آموزش مناسب و بزرگ هستند. غالبا برای تهیه ی این مجموعه، تعداد زیادی از اسناد بدون برچسب، توسط افراد خبره به صورت دستی برچسب گذاری می شوند. برچسب گذاری دستی اسناد عملی پرزحمت و زمان بر است. علاوه بر این در برچسب-گذاری دستی به دلیل خستگی و بی دقتی انسان ها امکان اشتباه وجود دارد. در این تحقیق ساخت نیمه خودکار مجموعه ی آموزش انجام گرفته است، به طوری که درصد کمی از اسناد این مجموعه ی بزرگ به صورت دستی برچسب گذاری می شوند و برچسب گذاری درصد باقیمانده به صورت خودکار انجام می پذیرد. با مطالعات قبلی این نتیجه حاصل شد که معمول ترین روش برای دسته بندی متون استفاده از ماشین بردار پشتیبان است، به همین دلیل در این تحقیق راه حلی براساس یک سیستم ارزیابی svm توصیف شده است. وظیفه ی این سیستم آماده سازی مجموعه ی آموزش برای دسته بندی متون می باشد. روش انتخاب شده استفاده از الگوریتم های co-training و ترکیب آن با معیار سنجش مشابهت برای برچسب-گذاری دقیق تر می باشد. نتایج حاصل نشان می دهد که تنها با برچسب گذاری 10 درصد از مجموعه ی آموزش، اسناد باقیمانده را می توان با دقت 98 درصد به صورت خودکار برچسب گذاری کرد. شایان ذکر است که این کاهش دقت در مجموعه داده های استاندارد رخ می دهد و در مجموعه های کاربردی ،کاهش دقت در مقابل کاهش دقت ناشی از خستگی و بی-دقتی انسان ها در برچسب گذاری مجموعه های بزرگ ، ناچیز است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

کاربرد برچسب گذاری دلپذیر

برچسب گذاری یک گراف یکی از شاخه های تحقیقاتی فعال در نظریه گراف است. اولین بار ایده برچسب گذاری گراف ها با برچسب گذاری دلپذیر مطرح شد اما به سرعت توسط محققین انواع متنوعی از برچسب گذاری ها برای یک گراف تعریف گردید. علیرغم گستردگی انواع برچسب گذاری گرافها، برچسب گذاری دلپذیر همچنان یکی از جذاب ترین شاخه های این رشته تحقیقاتی است. در این مقاله، سعی شده است به بررسی کاربردهایی که گرافهای دلپذیر در...

متن کامل

مروری بر سیستم های برچسب زنی تصاویر

امروزه با رشد تکنولوژی­ های ثبت و به اشتراک گذاری تصاویر، تعداد تصاویر دیجیتال افزایش چشمگیری یافته است. مدیریت این حجم از داده­ های تصویری به سامانه­ ای کارآمد جهت مرور، دسته‎بندی، جستجو و بازیابی نیاز دارد. سامانه ­های بازیابی تصاویر در نسل­ های جدید یک عبارت معنایی را معمولاً به صورت یک یا چند کلمه کلیدی از کاربر گرفته، به دنبال بازیابی تصاویری با محتویات بصری مرتبط با آن معن...

متن کامل

سیستم برچسب گذاری اجزای واژگانی کلام در زبان فارسی

Abstract: Part-Of-Speech (POS) tagging is essential work for many models and methods in other areas in natural language processing such as machine translation, spell checker, text-to-speech, automatic speech recognition, etc. So far, high accurate POS taggers have been created in many languages. In this paper, we focus on POS tagging in the Persian language. Because of problems in Persian POS t...

متن کامل

کنترل کیفیت و دسته بندی خودکار دانه بندی

با پیشرفت صنعت مواد غذایی و افزایش میزان تولید، استفاده از روش های نوین برای کنترل کیفیت، محصولات کشاورزی مورد نیاز می باشد لذا بدین منظور در سال های اخیر توجه زیادی به استفاده از ماشین بینایی در اتوماسیون تولید و کنترل کیفیت محصولات غذایی معطوف شده است. استفاده از ماشین بینایی در کنترل کیفیت محصولات غذایی، به دلایلی همچون سرعت عمل بسیار بالا، عدم تماس فیزیکی با محصول، سهولت یکپارچگی با سایر اج...

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه اصفهان - دانشکده فنی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023